Dans ce rapport nous allons étudier les déterminants de l’ouverture de données des 94 départements de France métropolitaine. Pourtant régi par la loi République Numérique datant du 7 octobre 2016, seuls 66% de ceux-ci publient au moins un jeu de données sur la plateforme publique ‘data.gouv.fr’ ou sur leur propre portail open data.


Après une longue période de récolte de données aux natures variées et provenant de diverses sources, nous disposons pour cette étude de 23 variables, censées expliquer la situation open data des départements.

Comme nous le voyons ci-dessus, nous disposons avec cette base des 23 variables suivantes :

Nous trouvons ci-dessous un dictionnaire détaillant les modalités des différentes variables catégorielles :

Dans un premier temps nous allons étudier et analyser les variables une à une, puis nous analyserons la nature de leur relation avec la variable à expliquer : nb_publi.


I- Variables une à une

Statistiques descriptives

La figure ci-dessus montre la répartition des variables qualitatives ; nous voyons alors que la majorité des présidents de départements appartiennent à la CSP n°3, c’est-à-dire aux cadres et professions intellectuelles supérieures. La variable des flux de migration résidentielle semble peu pertinente étant donné le nombre de modalités distinctes (55) et le peu d’observations dans chacun d’elle (max 8 par catégorie), nous l’écarterons donc pour l’analyse exploratoire. Nous notons également que près de 50% des départements sont peu denses, ou selon la nouvelle définition de l’INSEE ; un tiers sont considérés comme ruraux autonomes très peu denses. Enfin, deux tiers des départements sont à droite politiquement parlant (en considérant les chefs de 2019, soit avant les nouvelles élections).

Nous voyons ici la variable à expliquer, d’abord de nature binaire, puis avec de nature quantitative. Il apparaît alors que 62 départements français sur 94 ouvrent actuellement des données, soit 66%. Le nombre de publications quant à lui, varie de 1, qui concerne 11 départements, à 356, qui correspond à la Seine-Saint-Denis. On retrouve visuellement cette forte étendue de la série, sur l’histogramme de distribution.


Valeurs atypiques

Voyons à présent si certaines données, par leurs valeurs très faibles ou très élevées par rapport à la moyenne, sont atypiques et si elles nécessitent d’être traitées en conséquent.

Les violin plots montrent qu’il existe certains points atypiques pour les variables quantitatives, cela est lié à leur forte valeur supérieure au 3è quantile. La variable à expliquer (nombre de publications open data par département) contient elle même 10 outliers ; comme nous avons pu le voir précédemment, sa distribution est très étalée et l’écart dans l’open data entre les départements est assez notable, c’est pourquoi ceux qui publient plus de 88 jeux de données sont considérés comme atypiques. Cependant, étant donné que c’est précisément le phénomène que nous cherchons à expliquer et que ceux qui sont maintenant considérés comme atypiques par leur fort nombre de publications, devraient en réalité être la norme depuis la loi de 2016, nous décidons de ne supprimer aucune observation pour une partie de l’analyse exploratoire.

Le test de Rosner qui permet d’identifier les valeurs effectivement atypiques, révèle les seuils d’atypicité pour chacune des variables à partir desquelles la valeur est considérée comme outlier :

  • taux de chômage ≥ 13.8%
  • part des diplômés ≥ 15.7%
  • dépenses par habitant ≥ 1770.4 euros
  • part des étudiants ≥ 16.5% de la population
  • nombre d’étudiants ≥ 98938
  • population ≥ 2639070 habitants
  • niveau de vie ≥ 26600
  • nombre de créations d’entreprises ≥ 32480
  • nombre de nuitées d’hotels ≥ 6724

Outre la variable à expliquer, le test statistique révèle 12 valeurs atypiques. Pour les variables concernées nous allons comparer, dans une nouvelle partie, les distributions avec et sans outlierS.


Distributions

L’étendue des variables sans outliers (colonne de droite) est évidemment réduite par rapport aux distributions avec outliers (colonne de gauche). Pour les 2 variables qui ont seulement une valeur atypique (taux de chômage et population), il s’agit de Paris qui a des valeurs fortes en comparaison avec les autres départements de France.


Corrélations et dépendances

Dans cette partie nous allons examiner les corrélations et dépendances entre les variables explicatives, en ayant fait le choix de laisser les outliers dans la base.

La matrice représentée ci-dessus, montre qu’il existe de fortes corrélations entre certaines variables. On identifie ainsi des groupes de variables fortement corrélées entre elles :

  • population, nombre d’étudiants, nombre de créations d’entreprises et nombre de nuitées en hôtels de tourisme
  • les variables du niveau de vie, de la part de diplômés et des dépenses par habitants sont corrélées à ce groupe identifié, ou à une partie des variables de ce groupe


## 
##  Pearson's Chi-squared test
## 
## data:  departements$ouvre_data and departements$niveau_rural_mode
## X-squared = 9.6595, df = 5, p-value = 0.08548
## 
##  Pearson's Chi-squared test
## 
## data:  departements$ouvre_data and departements$niveau_rural_insee
## X-squared = 4.4441, df = 2, p-value = 0.1084
## 
##  Pearson's Chi-squared test
## 
## data:  departements$ouvre_data and departements$flux_migration_res
## X-squared = 48.536, df = 54, p-value = 0.6843
## 
##  Pearson's Chi-squared test
## 
## data:  departements$ouvre_data and departements$partis_po_chef
## X-squared = 1.2113, df = 2, p-value = 0.5457
## 
##  Pearson's Chi-squared test
## 
## data:  departements$ouvre_data and departements$CSP_chef
## X-squared = 2.671, df = 6, p-value = 0.8489
## 
##  Pearson's Chi-squared test
## 
## data:  departements$niveau_rural_mode and departements$niveau_rural_insee
## X-squared = 49.971, df = 10, p-value = 2.702e-07
## 
##  Pearson's Chi-squared test
## 
## data:  departements$niveau_rural_mode and departements$flux_migration_res
## X-squared = 327.76, df = 270, p-value = 0.009238
## 
##  Pearson's Chi-squared test
## 
## data:  departements$niveau_rural_mode and departements$partis_po_chef
## X-squared = 7.2161, df = 10, p-value = 0.7049
## 
##  Pearson's Chi-squared test
## 
## data:  departements$niveau_rural_mode and departements$CSP_chef
## X-squared = 23.101, df = 30, p-value = 0.8111
## 
##  Pearson's Chi-squared test
## 
## data:  departements$niveau_rural_insee and departements$flux_migration_res
## X-squared = 134.66, df = 108, p-value = 0.04205
## 
##  Pearson's Chi-squared test
## 
## data:  departements$niveau_rural_insee and departements$partis_po_chef
## X-squared = 3.3326, df = 4, p-value = 0.5038
## 
##  Pearson's Chi-squared test
## 
## data:  departements$niveau_rural_insee and departements$CSP_chef
## X-squared = 12.32, df = 12, p-value = 0.4203
## 
##  Pearson's Chi-squared test
## 
## data:  departements$flux_migration_res and departements$partis_po_chef
## X-squared = 99.155, df = 108, p-value = 0.7168
## 
##  Pearson's Chi-squared test
## 
## data:  departements$flux_migration_res and departements$CSP_chef
## X-squared = 321.11, df = 324, p-value = 0.5349
## 
##  Pearson's Chi-squared test
## 
## data:  departements$partis_po_chef and departements$CSP_chef
## X-squared = 15.779, df = 12, p-value = 0.2016

Les tests de dépendance du Khi-2 appliqués aux variables qualitatives, montrent leur indépendance totale, à l’exception d’un groupe de variables dépendantes entre elles : - le niveau de ruralité selon l’INSEE, le niveau de densité et les flux de migration résidentielle.


Finalement, en regardant la corrélation des Xt avec la variable à expliquer quantitative (nb_publi), on s’aperçoit que c’est le groupe identifié des 4 variables qui sont le plus fortement corrélés à Y. Bien qu’il faille choisir celles qui seront intégrées aux modèles du fait de leur forte corrélation, on peut supposer dès à présent qu’elles joueront un rôle essentiel dans l’explication du phénomène d’ouverture des données. Aussi, en regardant la dépendance des Xt avec la variable à expliquer binaire (ouvre_data), on voit que les plus dépendantes, donc les plus susceptibles d’expliquer Y, sont celles qui indiquent le niveau de ruralité et de densité du département.

Dans une seconde partie, regardons plus en détail grâce aux datavisualisations, les relations qui lient les variables explicatives à Y.



II- Relations des variables explicatives avec Y

Arbre de décision

L’arbre ci-dessus découpe les observations en groupes qui se veulent les plus hétérogènes entre eux mais les plus homogènes en leur sein. D’après cette régression ‘CART’, les variables les plus importantes sont les suivantes :

  • nombre d’étudiants
  • part des diplomés
  • nombre de créations d’entreprises
  • population
  • niveau de ruralité

Ainsi, excepté cette dernière, il s’agit du groupe de variables identifiées grâce à la matrice de corrélation en première partie, ce qui confirme notre hypothèse. Si l’on s’intéresse aux branches de 2 extrémités on voit que le group de départements qui publient le plus sont ceux qui ont plus de 56252 étudiants, cela concerne 16% des départements, avec un nombre de jeux ouverts moyen de 105. A l’opposé, on voit que les départements qui publient le moins de jeux sont ceux qui ont moins de 56252 étudiants et un budget (dépenses totales) supérieur à 1102 euros par habitant. 47% de la base se trouve dans ce cas, avec 10 publications en moyenne.


ACP

Sur le graphique de l’analyse en composantes principales, nous retrouvons nos 11 variables quantitatives projetées sur 2 axes fictifs, et regroupées selon des caractéristiques communes. Ces 2 “composantes” récupèrent 65% de l’information et nous retrouvons déjà le groupe de variables identifié par leurs corrélations fortes, celles-ci se situent sur l’axe n°1, proches du cercle extérieur, ce qui signifie qu’elles y contribuent grandement. Définissons à présent, en regardant la contribution ainsi que la corrélation des variables aux 2 dimensions, la nature des axes créés.

  • Axe n°1 : défini principalement par le nombre de création d’entreprises, la part des diplômés dans la population, le nombre d’étudiants, le nombre de nuitées en hôtels, le nombre d’habitants et le pourcentage de population vivant en zone rurale, cette dernière étant corrélée négativement à l’axe, il apparaît que cet axe reflète le dynamisme du département. Ainsi, plus on se déplace vers la droite, plus le département est dynamique.

  • Axe n°2 : le deuxième axe est principalement défini par les dépenses par habitant et la part des plus de 65 ans (corrélations positives), nous pouvons donc supposer qu’il caractérise le niveau de richesse du département. Ainsi, plus on se déplace vers le haut, plus le département est riche.


Regardons à présent où se situe notre variable à expliquer pour connaître les facteurs (autres que les données initialement récoltées) qui favorisent l’ouverture de données dans les départements. Puisque Y se trouve dans le quart en haut à gauche de la représentation graphique, cela nous montre que les départements les plus susceptibles d’ouvrir les données sont ceux qui sont dynamiques avec un budget conséquent.

Nous pouvons désormais projeter nos observations sur ce plan à 2 dimensions. Seule l’observation 74 se trouve dans le quart où le nombre de publications est censé être plus important ; il s’agit de Paris que l’on identifie largement comme valeur atypique et qui peut venir fausser l’ACP, étant donné qu’aucun autre département ne se trouve dans cette zone. Nous décidons alors de réestimer une ACP sans Paris.


Nous voyons sur cette nouvelle ACP que la variable à expliquer quantitative se trouve au même endroit sur la projection des 2 dimensions. Par ailleurs, nous notons un pourcentage de la variance expliquée légèrement plus faible (54%) que lorsque Paris était inclu dans la base (55%). Voyons à présent si la définition des axes est la même, pour cela nous nous intéressons à la contribution de chaque variable à ceux-ci.

  • Axe n°1 : mise à part le pourcentage de contribution qui diffère légèrement, les variables qui définissent le premier axe sont les mêmes que l’ACP précédente ; il s’agit donc du dynamisme du département.

  • Axe n°2 : le deuxième axe en revanche est désormais expliqué par le taux de chômage (contribution positive), le niveau de vie (contribution négative) et les dépenses par habitant (contribution positive). Nous pouvons ainsi la définir par le manque d’activité étant donné le signe des relations des variables aux dimensions. Les départements qui se situeraient en haut de l’ACP proches du cercle, seront alors caractérisés par un manque d’activité traduit par un fort taux de chômage, un niveau de vie faible et de fortes dépenses par habitant - peut être dans le but de compenser ce manque.

Avec cette deuxième analyse des composantes sans le département de Paris qui est considéré comme atypique pour bon nombre des variables numériques, nous pouvons distinguer davantage les groupements ou isolements des départements projetés sur le plan aux dimensions que nous venons de définir. Les numéros des points correspondent au numéro d’observation dans la base, leur coloration correspond au nombre de publications. On voit alors que les observations 91 (Seine-Saint-Denis), 52 (Mayenne) et 43 (Loire Atlantique) sont celles qui publient le plus de jeux de données ; respectivement 356, 292 et 260. On remarque cependant que malgré leur similitudes dans l’ouverture de données, ces 3 départements n’ont pas les mêmes caractéristiques puisqu’ils se situent dans des quarts différents :

  • la Seine-Saint-Denis : situé en haut à droite, ce département est caractérisé par un bon dynamisme reflété par un nombre important de créations d’entreprises (35012 en 2019), 0% de la population qui vit en zone rurale et plus de 60000 étudiants, mais il est aussi défini par le manque d’activité lié à un taux de chômage élevé.

  • la Mayenne : situé en bas à gauche, ce département est caractérisé par un manque de dynamisme (peu d’étudiants, 55% de la population en zone rurale, 2411 créations d’entreprises) mais une certaine activité avec un taux de chômage à seulement 5.5% et uné médiane du niveau de vie relativement bonne, à 20830.

  • la Loire Atlantique : enfin, ce département est situé en bas à droite ce qui montre un bon dynamisme, de paire avec une bonne activité.

Le constat de situations bien différentes malgré des maturités open data assez similaires entre ces 3 départements, montre que ce phénomène est difficile à expliquer puisqu’il semble y avoir une partie aléatoire que l’on ne peut mesurer par des données, ou bien d’autres facteurs omis dans cette analyse qui permettraient de cibler mieux les tenants et aboutissants du sujet.


ACM

L’analyse des correspondances multiples appliquée aux variables qualitatives de la base montre les liens qui existent entre ces dernières, pour plus de cohérence nous l’avons estimée sans le département de Paris. On voit ainsi les liaisons fortes entre les niveaux de ruralité et les données du chef de l’exécutif dans une moindre mesure. En regardant la projection des individus, on remarque que les niveaux 1 des variables sur la ruralité (qui correspondent au plus urbain), sont situés le long de l’axe 1 et proches de son extremité donc l’expliqueront en grande partie.


La contribution des modalités aux axes confirme justement cela : l’axe n°1 représenterait la densité du département avec les 2 modalités évoquées précédemment, tandis que l’axe n°2 pourrait être interprété aussi comme le dynamisme avec des présidents artisans, commerçants ou chef d’entreprise et un département ni “dense” (modalité 2 de ‘niveau_rural_insee’) ni “rural sous faible influence d’un pôle” (modalité 4 de ’niveau_rural_mode’).


La projection des individus sur ces modalités ainsi définies, n’est pas plus concluante que l’ACP puisque des départements proches sur le cercle, traduisant des caractéristiques communes, n’ont pourtant pas du tout le même nombre de données ouvertes ;

  • observations n°34, 79, 61, 53 avec respectivement 45, 0, 0 et 16 publications tandis qu’elles sont exactement sur le même point sur la projection à 2 dimensions ; en bas du graphique
  • observations n° 90, 91 et 92 situées à droite avec respectivement 138, 0 et 356 publications
  • observations n° 23, 44 et 45 situées sur l’axe n°1 du côté gauche du plot, avec 3, 41 et 44 publications


Diagrammes croisés

## 
##  1  2  3  4  5  6 
##  4  4 13 14 26 33

Nous allons faire attention aux conclusions que nous pourrions tirer à partir de ces diagrammes croisés puisque le nombre d’observation dans chaque classe est parfois restreint, ce qui peut amener à des constats non représentatifs d’une majorité mais spécifique à un cas qui peut lui-même être anormal.


Sur ce premier graphique nous voyons par exemple que le nombre de publications est largement supérieur pour les départements urbains denses, en comparaison aux autres départements. Cela est à nuancer puisque seules 4 observations se trouvent dans ce cas.

## 
##  1  2  3 
## 17 31 46
## 
##         Droite         Gauche sans étiquette 
##             62             30              2
## 
##  1  2  3  4  5  7  8 
##  2  5 41 10  1 23 12

Sur les autres plots, toujours sous réserve de la représentativité des données, on constate que les départements denses, de gauche et dont le chef est artisan, commerçant ou chef d’entreprise, ouvrent davantage de données que les autres. Pour cette dernière modalité qui correspond à la CSP 2, le constat confirme celui déjà fait grâce à l’ACM ; constat selon lequel cette catégorie socio-professionnelle pour les chefs montrent un certain dynamisme du département et donc qu’ils sont plus enclins à ouvrir leurs données.


Treemap

## 
## 11 24 27 28 32 44 52 53 75 76 84 93 
##  8  6  8  5  5 10  5  4 12 13 12  6

le treemap montre que ce sont les départements situés en région Pays de la Loire qui publient le plus avec, en sommant le nombre de publications de chaque département en faisant partie, 128 jeux de données publiés pour 10 départements. Vient ensuite la région Ile-de-France avec 101 publications pour 8 départements.


Stacked barcharts

Les stacked barcharts que nous voyons dans cette partie reprennent à peu de choses près les mêmes informations que les diagrammes croisés étudiés précédemment, mais en croisant cette fois, non pas avec Y quantitatif, mais avec Y qualitatif c’est-à-dire binaire avec ouverture ou non ouverture de données.

Proportionnellement au nombre d’observations dans chaque modalité, on confirme grâce à ce graphique, que les départements denses (modalité n°2) sont les plus nombreux à avoir entrepris une démarche open data, puisque 80.6% sont dans ce cas (25 sur 31 départements).

Ensuite, les figures ci-dessus montrent aussi la plus grande ouverture dans les départements de gauche, ainsi que ceux dont le chef appartient à la CSP n°2.


Nuages de points

Dans cette dernière partie nous chercherons à définir des sous-populations grâce à des nuages de points, à partir des différentes analyses réalisées au cours de cette section. Nous colorerons donc les points en sous groupes, initialement à partir des variables qualitatives de la base, puis à partir de variables catégorielles que nous créerons grâce aux constats émis précédemment.

Sans coloration particulière on voit bien qu’aucune relation évidente ne ressort des graphiques ; la pente positive ou négative n’apparaît pas clairement, c’est pourquoi nous allons essayer d’identifier des sous groupes de départements.


  • Coloration à partir des variables qualitatives existantes

En retenant 2 variables nous colorons les points selon les modalités des variables existantes, cependant nous ne notons aucun groupes clairement distincts ; les départements ouvrant beaucoup de données se trouvent à n’importe quel endroit du graphique et ne semblent donc pas réunis à un endroit.

On crée ensuite de nouvelles variables à partir de l’analyse exploratoire, en retirant à cause des ACP et ACM, le département de Paris :

# On créé des variables catégorielles à partir de l'analyse exploratoire
     #depuis ACP
dep2 <- departements[-74,]
dep2 <- dep2 %>% mutate(dynamisme = res.pca_Y2$ind$coord[,1])
dep2 <- dep2 %>% mutate(inactivite = res.pca_Y2$ind$coord[,2])
     #depuis ACM
dep2 <- dep2 %>% mutate(densite = res.mca$ind$coord[,1])
dep2 <- dep2 %>% mutate(dynamisme_ACM = res.mca$ind$coord[,2])
     #depuis CART
dep2 <- dep2 %>% mutate(is_big_nb_etu = case_when(nb_etudiants >= 56525 ~ 1,
                                                                  nb_etudiants < 56525 ~ 0))
dep2 <- dep2 %>% mutate(feuilles_CART = case_when(nb_etudiants >= 56525 ~ 4,
                                                                  nb_etudiants < 56525 & depenses_hab >=1102 ~ 1,
                                                                  nb_etudiants < 56525 & depenses_hab < 1102 & part_etudiants >=1.7 ~ 2,
                                                                  nb_etudiants < 56525 & depenses_hab < 1102 & part_etudiants < 1.7 ~ 3
                                                                  ))
     #depuis violin plots
dep2 <- dep2 %>% mutate(is_extreme = case_when(taux_chomage < 13.8 & part_diplomes < 15.7 & depenses_hab < 1770.413 & part_etudiants < 16.5 & nb_etudiants < 98938 & pop_insee < 2639070 & niveau_vie < 26600 & nb_crea_entps < 32480 & nb_nuitees_hotels < 6724 ~ 0,
                                                               TRUE ~ 1))


Nous avons donc les résultats suivants :

  • Axes de l’ACP

  • Axes de l’ACM

  • Modalités de l’arbre de décision

  • Valeurs atypiques

Comme visible sur les différents graphiques, colorer les observations selon différents critères ne permet pas d’identifier de groupes avec un même nombre de publications en relation avec le taux de chômage et la part des plus de 65 ans. De même, paramétrer la taille des points selon une variable quantitative ne fait ressortit aucunes sous populations.

  • Population

  • Nombre d’étudiants

  • Nombre de créations d’entreprises

  • Age du chef de l’exécutif

  • Médiane du niveau de vie

  • Part des diplômés

  • Pourcentage de la population vivant en zone rurale


Conclusion

Pour conclure cette analyse exploratoire, nous avons pu faire plusieurs constats intéressants à partir des données récoltées pour les 94 départements de France. Ceux qui publient le plus de jeux de données sont ceux qui ont une population supérieure à 56525, ceux qui sont denses / urbains, qui sont politiquement à gauche et dont le chef est artisan, commerçant ou chef d’entreprise.

Pendant cette étude nous avons notamment soulevé le problème lié au phénomène récent ou à un manque d’informations sur les collectivités ; puisque des départements ayant les mêmes caractéristiques donc pouvant être regroupés selon diffférents critères, ont pourtant des maturités open data très différentes. Une analyse avec d’autres facteurs ou plus poussée avec des modélisations pour valider ou invalider les hypothèses émises lors de ce process serait donc une solution, pour connaître réellement les déterminants à l’ouverture de données pour les départements français.